智能论文笔记

Guaranteed Discovery of Controllable Latent States with Multi-Step Inverse Models

Alex Lamb , Riashat Islam , Yonathan Efroni , Aniket Didolkar , Dipendra Misra , Dylan Foster , Lekan Molu , Rajan Chari , Akshay Krishnamurthy , John Langford

分类：机器学习 | 机器人 | (统计)机器学习

2022-07-17

一个沿着城市街道行走的人试图对世界各个方面进行建模，这很快就会被许多商店，汽车和人们遵循自己的复杂且难以理解的动态所淹没。在这种环境中的探索和导航是一项日常任务，不需要大量精神资源。是否可以将这种感官信息的消防软管转变为最小的潜在状态，这是代理在世界上成功采取行动的必要和足够的？我们具体地提出了这个问题，并提出了可控制的状态发现算法（AC-State），该算法具有理论保证，并且实际上被证明可以发现\ textit {最小可控的潜在状态}，其中包含所有用于控制控制的信息代理，同时完全丢弃所有无关的信息。该算法由一个具有信息瓶颈的多步逆模型（预测遥远观察结果的动作）组成。 AC-State可以在没有奖励或示威的情况下实现本地化，探索和导航。我们证明了在三个领域中发现可控潜在状态的发现：将机器人组分散注意力（例如，照明条件和背景变化），与其他代理商一起在迷宫中进行探索，并在Matterport House Simulator中导航。

translated by 谷歌翻译

在现实世界的强化学习应用中，学习者的观察空间无处不在，有关手头任务的相关信息和无关紧要。从高维观察中学习一直是监督学习和统计数据（例如，通过稀疏性）进行广泛研究的主题，但是即使在有限的状态/行动（表格）领域，也不能很好地理解强化学习中的类似问题。我们引入了一个新的问题设置，用于增强学习，即马尔可夫决策过程（EXOMDP），其中状态空间将（未知）分解成一个小的（或内源性）组件，并且很大的无关（或外源）组件;外源成分独立于学习者的行为，但以任意的，时间相关的方式演变。我们提供了一种新的算法Exorl，该算法学习了一种近乎最佳的政策，其样品复杂性在内源性组件的大小中多项式，几乎独立于外源成分的大小，从而提供了一个双重指数的改进算法。我们的结果首次突出了在存在外源信息的情况下首次可以进行样品高效的增强学习，并为未来的调查提供了简单，用户友好的基准。

translated by 谷歌翻译

控制理论中的一个基本概念是可控性，可以通过适当的控制输入选择来达到任何系统状态。确实，大量的古典和现代方法是为可控的线性动力系统设计的。但是，在实践中，我们经常遇到系统，其中大量状态变量与控制输入无关。这样的系统仅是部分控制的。这项工作的重点是大量部分可控制的线性动力学系统，该系统由潜在的稀疏模式指定。我们的主要结果建立了结构性条件和有限样本保证，以学习控制此类系统。特别是，我们的结构结果是那些与最佳控制无关的状态变量的特征，该分析偏离了经典的控制技术。我们的算法结果适应了高维统计数据（尤其是软阈值和半参数最小二乘方形），以利用潜在的稀疏模式，以获得有限样本的保证，从而显着改善了基于一定程度等值的有限样本。我们还通过模拟研究证实了这些理论改进，而不是确定性等效控制。

translated by 谷歌翻译

我们研究了随机的最短路径（SSP）问题，其中代理商必须以最短的预计成本达到目标状态。在问题的学习制定中，代理商没有关于模型的成本和动态的知识。她反复与k $剧集的型号交互，并且必须尽量减少她的遗憾。在这项工作中，我们表明这个设置的Minimax遗憾是$ \ widetilde o（\ sqrt {（b_ \ star ^ 2 + b_ \ star）| s | a | a | k}）$ why $ b_ \ star $ a符合来自任何州的最佳政策的预期成本，$ S $是状态空间，$ a $是行动空间。此相匹配的$ \欧米茄（\ SQRT {B_ \星^ 2 | S | |甲| K}）$下界Rosenberg等人的。 [2020]对于$ b_ \ star \ ge 1 $，并改善了他们的遗憾，以\ sqrt {| s |} $ \ you的遗憾。对于$ b_ \ star <1 $我们证明$ \ omega的匹配下限（\ sqrt {b_ \ star | s | a | a | k}）$。我们的算法基于SSP的新颖减少到有限地平线MDP。为此，我们为有限地域设置提供了一种算法，其前期遗憾遗憾地取决于最佳政策的预期成本，并且仅对地平线上的对数。

translated by 谷歌翻译